Using collocation segmentation to extract translation units in a phrase-based statistical machine translation system Implementación de una segmentación estad́ıstica complementaria para extraer unidades de traducción en un sistema de traducción estad́ıstico basado en frases

نویسندگان

  • Marta R. Costa-jussà
  • Vidas Daudaravicius
  • Rafael E. Banchs
چکیده

This report evaluates the impact of using a novel collocation segmentation method for phrase extraction in the standard phrase-based statistical machine translation approach. The collocation segmentation technique is implemented simultaneously in the source and target side. The resulting collocation segmentation is used to extract translation units. Experiments are reported in the Spanish-toEnglish EuroParl task and promising results are achieved in translation quality.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Integración de optimización evolutiva para el reconocimiento de emociones en voz

Resumen. En este art́ıculo se presenta el desarrollo de un sistema de reconocimiento de emociones basado en la voz. Se consideraron las siguientes emociones básicas: Enojo, Felicidad, Neutro y Tristeza. Para este propósito una base de datos de voz emocional fue creada con ocho usuarios Mexicanos con 640 frases (8 usuarios × 4 emociones × 20 frases por emoción). Los Modelos Ocultos de Markov (Hid...

متن کامل

Estudio Bidireccional de un Sistema de RI Multilingüe Basado en Traducción de n-Gramas

Resumen Continuando nuestra investigación sobre el empleo de ngramas de caracteres como unidad de traducción en sistemas de RI Multilingüe, este art́ıculo analiza el comportamiento de nuestra solución en direcciones inversas de traducción a partir de sendos experimentos paralelos con consultas en inglés sobre textos en español y viceversa. Lo positivo de los resultados corrobora la validez de nu...

متن کامل

Sistema de Suscripción basado en XML para noticias digitales

Resumen. En este trabajo se plantea la problemática del seguimiento de un gran flujo de información entrante en una base documental, y la notificación de las novedades significativas a los usuarios de acuerdo a los perfiles definidos en sus suscripciones. Se propone un sistema de suscripción que utiliza un nuevo lenguaje basado en XML, que permite especificar consultas considerando la estructur...

متن کامل

Medidas de Complejidad Cuantitativas para Sistemas Expertos Basados en Reglas

La evaluación de un Sistema Basado en Conocimiento es una fase del ciclo de desarrollo en este paradigma que comúnmente busca que el sistema tenga una sintaxis correcta, una semántica válida y que el grado de usabilidad y utilidad sea alto. Sin embargo, en esta etapa no se hace una valoración de la organización que tiene la Base de Conocimiento, lo cual pudiera repercutir en la eficiencia de la...

متن کامل

Dealing with Input Noise in Statistical Machine Translation

Misspelled words have a direct impact on the final quality obtained by Statistical Machine Translation (SMT) systems as the input becomes noisy and unpredictable. This paper presents some improvement strategies for translating real-life noisy input. The proposed strategies are based on a preprocessing step consisting in a character-based translator (MT) from noisy into cleaned text. The use of ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2010